重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 演化 图 谱 构建 研究 # 
Ema)? SRR, Al, SHH! 
(1. 吉林 大 学 商学 与 管理 学 院 ， 吉 林 KÆ 130015) 
(2. 吉林 大 学 大 数据 管理 研究 中 心 ， 吉 林 长 春 130015) 
(3. 吉林 大 学 网 络 空间 治理 研究 中 心 ， 吉 林 长 春 130015) 


摘 要 : [目的 /意义 ] 研究 重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 图 谱 构 建 ， 
有 利于 更 好 地 发 现 重大 突 发 事件 下 舆情 演进 态势 和 识别 敏感 与 情话 题 , 从 而 进行 
正 向 的 与 情 引 导 , 对 重大 突 发 事件 的 应 急 和 维护 社会 稳定 具有 重要 作用 。[ 方 法 / 
过 程 ] 本 文 基于 LDA 构建 社会 群体 信息 行为 舆情 主题 聚 类 演化 图 谱 , 基于 时 序 性 
构建 舆情 主题 热度 演化 图 谱 ， 基 于 相似 度 构 建 舆 情 主题 路 径 演化 图 谱 ， 并 给 出 重 
大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 图 谱 构 建 过 程 模型 。[ 结 果 / 结 论 ] 研究 
结果 表明 , 利用 本 文 构建 的 重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 分 析 模 型 ， 
可 以 对 社交 媒体 中 群体 信息 行为 舆情 主题 特征 、 主 题 热 度 影响 因素 及 主题 最 优 传 
播 路 径 进行 分 析 。 本 文 的 研究 为 重大 突 发 事件 中 社会 群体 信息 行为 与 情 分 析 提 供 
了 新 的 理论 框架 和 分 析 方 法 , 为 重大 突 发 事件 中 的 网 络 熏 情 引导 和 与 情 治 理 提 供 
参考 。 
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1 引言 


2022 年 10 月 中 国共 产 觉 召开 第 二 十 次 全 国 代表 大 会 ， 习 近 平 总 书记 在 报告 
中 指出 “要 完善 公共 安全 体系 , 提高 防 灾 减 灾 救 灾 和 急难 险 重 突 发 公共 事件 处 置 
保障 能 力 ”， 多 次 强调 “坚持 安全 第 一 、 预 防 为 主 ， 完 善 公共 安全 体系 和 国际 应 
急 管 理 体系 建设 ”, 为 总 体 国家 安全 观 下 重大 突 发 事件 的 应 急 管理 工作 指明 了 方 
向 ”。 重大 突 发 事件 下 由 于 信息 的 不 对 称 , 极 易 引 发 一 系列 重要 信息 的 错误 解读 ， 
甚至 是 不 实 言论 的 恶意 传播 ， 从 而 影响 社会 稳定 ， 造 成 人 民 恺 懂 。 同 时 ， 新 媒体 
和 社交 网 络 是 国家 机 关 发 布 相关 政策 的 重要 渠道 和 人 民 和 群众 日 常 交流 信息 的 重 
要 平台 , 对 网 络 社会 群体 信息 行为 的 引导 和 监管 对 于 维护 国家 安全 稳定 有 着 重要 
意义 。 因 此 , 对 重大 突 发 事件 中 网 络 社会 群体 信息 行为 主题 图 谱 及 演化 的 相关 研 
究 ， 是 当前 学 术 界 和 应 急 管 理 相关 部 门 应 关注 的 重点 问题 。 

目前 ， 国 内 外 学 者 对 重大 突 发 事件 下 的 社交 媒体 信息 传播 开展 了 相关 研究 。 
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国外 有 学 者 对 社交 媒体 平台 数据 的 文本 复杂 性 进行 实证 分 析 , 据 此 研究 社交 媒体 
在 应 急 响 应 领域 所 发 挥 的 作用 ”“; 结合 公众 、 应 急 组 织 和 学 术 机 构 在 重大 突 发 事 
件 中 对 社交 媒体 工具 的 使 用 情况 ， 分 析 重 大 突 发 事件 中 社交 媒体 的 作用 机 制 ”; 
通过 机 器 学 习 技 术 , 研究 社交 媒体 平台 在 突 发 事件 中 加 强 或 前 弱 风 险 认 知 方面 的 
作用 "; 还 有 学 者 针对 重大 突 发 事件 中 政府 部 门 发 布 的 相关 政策 ， 通 过 数据 分 析 
技术 , 研究 政府 通过 社交 媒体 进行 信息 发 布 对 公众 负面 情绪 传播 及 演化 的 影响 
等 。 国内 有 学 者 总 结 了 重大 突 发 事件 下 社交 媒体 信息 发 布 模式 , 并 据 此 构建 政府 
部 门 和 医疗 专家 不 同 渠道 信息 发 布 的 演化 博弈 模型 *; 还 有 研究 应 用 质 性 分 析 方 
法 从 多 维度 对 重大 突 发 事件 下 的 社交 媒体 信息 过 载 的 成 因 和 影响 展开 ”"; 分 析 重 
大 突 发 事件 下 社交 媒体 多 模 态 信息 的 特征 , 并 归纳 总 结 出 多 模 态 信息 分 析 的 关键 
方法 和 技术 ”; 通过 采用 扎根 方法 和 主题 挖掘 ， 研 究 基 于 数据 分 析 的 全 媒体 融合 
对 重大 突 发 事件 下 应 急 管理 不 同 发 展 阶段 的 应 用 情况 ”。 从 国内 外 现 有 研究 成 果 
的 现状 来 看 , 国外 研究 多 关注 重大 突 发 事件 中 社交 媒体 的 作用 机 制 以 及 完善 现 有 
的 应 急 管 理 系 统 等 , 国内 相关 研究 多 对 重大 突 发 事件 下 社交 媒体 信息 传播 模型 进 
行 构建 和 信息 传播 特征 进行 分 析 。 从 现 有 研究 成 果 来 看 , 国内 外 针对 重大 突 发 事 
件 下 社会 群体 信息 行为 演进 相关 研究 的 成 果 相 对 较 少 , 针对 社会 群体 信息 行为 与 
情 主 题 及 演化 特征 的 研究 成 果 更 少 。 


本 研究 试图 解决 以 下 两 个 研究 问题 : 如 何 构建 重大 突 发 事件 中 社会 群体 信息 
行为 与 情 主 题 图谱 , 并 对 社会 群体 信息 行为 进行 分 析 ? 如 何 针对 重大 突 发 事件 中 
社会 群体 的 信息 行为 进行 网 络 鼻 情 主题 识别 及 和 与 情 引 导 ? 本 文 研究 在 理论 层面 
E, 创新 性 地 构建 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主题 分 析 过 程 模 型 ， 明 
有 主题 察 类 图 谱 、 主 题 热 度 演化 图 谱 和 主题 路 径 演 化 图 谱 的 构建 ,为 网 络 熏 情 的 
主题 分 析 提 供 了 新 的 理论 框架 和 分 析 方 法 ; 在 实践 层面 上 ,有 利于 营造 健康 良好 
的 网 络 生态 , 为 重大 突 发 事件 中 社会 群体 信息 行为 与 情 引 导 和 与 情 治 理 提 供 参 考 。 


2 相关 概念 及 文献 综述 


2.1 重大 突 发 事件 


重大 突 发 事件 是 指 突然 发 生 ,造成 或 者 可 能 造成 严重 社会 危害 , 需要 采取 应 
急 处 置 措施 并 予以 应 对 的 自然 灾害 、 事 故 灾难 、 公 共 卫 生 事 件 和 社会 安全 事件 ”。 
重大 突 发 事件 主要 有 突 发 性 、 特 定性 、 复 杂 性 和 危害 性 四 个 特征 。 重 大 突 发 事件 
的 发 生 会 影响 社会 稳定 ， 造 成 人 民 恐 慌 。 当 重大 突 发 事件 发 生 后 ， 事 物 原 有 的 发 
展 格局 突然 被 打 乱 , 可 能 会 出 现 超出 正常 社会 秩序 和 人 们 的 心理 惯性 运行 .因此 ， 
突 发 性 事件 出 现 后 人 们 往往 措手不及 难以 应 对 ， 整 个 工作 和 生活 秩序 混乱 , 不仅 
对 世界 各 国 的 经 济 政治 造成 严重 影响 ， 甚 至 会 给 世界 各 国人 民 都 带 来 深重 灾难 ， 
严重 影响 各 国 的 经 济 政治 秩序 和 人 民 的 正常 生活 。 二 十 大 报告 中 习近平 总 书记 并 
EER, 多 次 强调 “完善 公共 安全 体系 ,提高 防 灾 减 灾 救 灾 和 急难 险 重 突 发 公共 
事件 处 置 保障 能 力 ”， 完 善 国家 应 急 管 理 体系 建设 ,为 重大 突 发 事件 的 应 急 管 理 
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2.2 社会 群体 信息 行为 


信息 行为 是 指 个 人 在 满足 自己 的 信息 需求 过 程 中 所 发 生 的 行为 活动 , 主要 是 
指 以 某 种 方式 搜寻 、 使 用 和 传递 信息 的 相关 活动 ”。 国内 外 对 重大 突 发 事件 下 群 
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体 信 息 行 为 的 研究 主要 集中 于 构建 群体 信息 行为 模型 ， 发 现 群 体 信息 行为 动机 、 
过 程 机 理 及 群体 信息 行为 影响 因素 。 初 期 研究 多 是 采纳 不 同 领域 模型 如 钧 状 模型 
URAL TTM 模型 ”， 从 而 对 群体 信息 行为 的 影响 因素 进行 分 析 ， 并 基于 影响 因素 模 
型 提出 对 群体 信息 行为 过 程 的 服务 优化 。 随 后 出 现 了 通过 采纳 不 同 的 需求 理论 对 
社交 媒体 中 用 户 的 信息 行为 机 理 、 过 程 及 行为 动机 进行 解读 的 研究 ”; 还 有 学 者 
通过 定性 分 析 的 方法 确定 用 户 信息 行为 过 程 中 不 同 影响 因素 间 的 内 在 联系 及 作 
用 路 径 ”。 随 着 互联 网 信息 技术 的 快速 发 展 ， 网 络 用 户 群 体 数量 日 趋 庞 大 ， 有 关 
社会 群体 信息 行为 的 研究 也 逐渐 延伸 到 互联 网 世界 当中 。 本文 研 究 的 社会 群体 信 
恩 行 为 是 指 网 络 用 户 群 体 的 信息 行为 , 即 网 络 用 户 群 体 在 网 络 社交 平台 中 进行 信 
息 获 取 、 信 息 检索 、 信 息 共享 、 信 息 传播 和 信息 利用 等 活动 。 这 种 信息 行为 具有 
开放 性 、 无 组 织 性 、 虚 拟 性 和 个 性 化 等 特点 ， 大 多 数 网 络 社交 平台 都 允许 网 络 用 
户 在 遵守 网 络 道德 规范 和 法 律 法 规 的 前 提 下 , 在 任何 时 间 地 点 自由 地 进行 任何 信 
县 活动 。 


2.3 主题 聚 类 图 谱 


主题 图 谱 是 知识 图 谱 在 领域 层面 的 应 用 及 深化 , 它 存在 多 种 类 别 , 包括 用 户 
交互 行为 图 谱 、 语 义 图 谱 和 事理 图 谱 等 “。 其 中 , 用 户 交 互 行为 图 谱 是 对 用 户 实 
体 及 实体 关系 进行 构建 , 旨 在 发 现 用 户 之 间 交 互 关 系 种 类 及 网 络 中 的 重要 节点 等 
言 息 的 关系 。 在 行为 图 谱 中 ,实体 是 指 参 与 话题 讨论 的 用 户 , 每 个 实体 具有 一 定 
的 属性 值 ， 包 括 网 络 用 户 基 本 信息 ， 如 年 龄 、 地 域 和 认证 信息 等 ;实体 与 实体 之 
闻 的 关系 表现 为 转发 、 评 论 、 提 及 和 点 赞 等 关系 。 本 文 研究 的 主题 聚 类 图 谱 ， 是 
在 用 户 交 互 行为 图 谱 的 基础 上 , 将 海量 的 微 博 用 户 发 布 的 评论 转发 文本 信息 通过 
主题 相似 度 进 行 划分 , 不 仅 可 以 将 社交 网 络 中 的 用 户 通过 主题 分 类 成 不 同 的 聚 类 
群体 , 还 可 以 将 相同 主题 下 的 网 络 用 户 聚 集 在 一 起 , 表现 出 不 同 网 络 用 户 群 体 对 
某 一 话题 事件 的 转发 、 评 论 和 提 及 行为 ”。 主 题 聚 类 图 谱 采 用 图 的 建 模 方式 ， 实 
体 为 参与 话题 讨论 的 网 络 用 户 , 实体 关系 为 不 同 用 户 之 间 的 转发 .评论 和 提 及 等 。 
网 络 社交 媒体 中 的 主题 聚 类 图 谱 来 源 于 网 络 用 户 的 评论 转发 文本 信息 , 主题 聚 类 
图 谱 的 构建 有 利于 获取 社交 网 络 中 的 有 效 信息 , 如 网 络 用 户 讨论 的 热点 主题 以 及 
用 户 意 见 领 袖 识 别 等 。 


3 研究 设计 
3.1 基于 LDA 的 社会 群体 信息 行为 与 情 主题 到 类 演化 图 


通过 对 社会 群体 信息 行为 舆情 的 主题 聚 类 , 可 以 从 更 加 全 面 和 准确 的 信息 视 
角 了 解 在 重大 突 发 事件 下 与 情事 件 的 发 生 、 演 化 和 影响 。 同时， 通过 对 和 与 情 主题 
聚 类 图 谱 的 分 析 , 可 以 了 解 用 户 群 体 对 与 情事 件 的 关注 点 ， 从 而 准确 把 控 和 与 情 发 
展 方向 ， 更 好 地 引导 网 络 与 情 ， 避 人 免 与 情事 件 产生 的 负面 影响 。 


本 文通 过 LDA 模型 进行 主题 聚 类 。LDA 主题 模型 是 一 种 可 对 大 量 文 本 信息 特 
征 进行 主题 建 模 的 三 层级 贝 叶 斯 概率 图 模型 ”， 其 组 成 结构 包含 文档 、 主 题 和 词 
三 种 粒度 。LDA 主题 模型 主要 用 于 挖掘 文本 的 潜在 主题 ， 并 进行 主题 划分 ， 集 中 
在 每 篇 文本 的 主题 以 概率 分 布 的 形式 给 出 ， 并 根据 主题 进行 聚 类 。LDA 主题 模型 
不 考虑 文档 中 词语 的 顺序 ， 通 常 使 用 词 袋 特征 (Bag-of-Word Feature) 来 代表 
文档 ， 构 成 “文档 -主题 分 布 ” 和 “主题 - 词 分 布 ”。 


本 文采 用 困惑 度 (perplexity) 评价 指标 来 确定 文档 中 最 优 的 主题 个 数 。 
惑 度 是 一 种 信息 理论 的 测量 方法 , 在 自然 语言 处 理 中 困惑 度 常 作为 衡量 一 个 概率 
分 布 或 概率 模型 预测 样本 优 务 程 度 的 指标 , 可 以 通过 困惑 度数 值 变化 来 调节 语言 
模型 主题 个 数 ”， 计 算 公 式 如 下 : 


perplexity(D) = exp Ce 公式 (1) 

其 中 , D 表示 所 有 文档 的 集合 ，M 表示 文档 的 数量 ，Wd 表示 文档 d 中 的 词 ， 
Nd 表示 文档 d 中 的 词 数 ，P (Wd) 表 示 文 档 集 合 中 词 出 现 的 概率 。 困 惑 度数 值 一 般 
随 着 潜在 主题 数量 的 增加 呈现 递减 的 规律 , 困惑 度数 值 越 小 表示 该 主题 模型 的 生 
成 能 力 越 强 ， 模型 越 好 。 因 此 ， 本 文选 择 困 惑 度 相 对 小 且 主 题 数量 相对 较 少 的 主 
题 数 值 ， 作 为 LDA 模型 训练 的 最 优 模型 参数 。 


3.2 基于 时 序 性 的 社会 群体 信息 行为 与 情 主 题 热度 演化 图 谱 


与 情 主 题 热度 演化 是 指 僵 情 主 题 被 公众 关注 的 热点 程度 , 随 着 时 间 的 推移 呈 
现 出 爆发 或 者 消亡 等 变化 趋势 .对 与 情事 件 主题 热度 演化 的 分 析 有 助 于 提高 对 与 
情事 件 生命 周期 判断 的 准确 性 , 同时 发 掘 出 群体 在 擂 情 事件 发 展 过 程 中 受 关注 程 
度 。 通过 LDA 主题 模型 完成 用 户 评论 转发 文本 内 容 的 分 类 主题 挖 气 后， 截取 与 情 
事件 发 生 后 的 一 段 时 间作 为 分 析 时 间 , 对 该 段 时 间 内 的 不 同 主题 的 文本 数量 进行 
统计 ”， 从 而 作为 与 情 主 题 热 度 演化 分 析 的 衡量 依据 。 


关于 重大 突 发 事件 中 社会 群体 信息 行为 的 主题 热度 演化 分 析 , 本 文 基于 主题 
热度 和 时 序 性 , 对 不 同仁 情 主 题 下 的 时 间 切 片 内 出 现 的 主题 频次 进行 求 和 ， 以 此 
来 反映 该 主题 在 不 同时 段 内 的 与 情 主题 讨论 热度 , 即 以 发 文 时 间 为 模 轴 , 不同 主 
题 发 文 热度 为 纵 轴 , 构建 主题 热度 的 演化 图 谱 。 通 过 针对 主题 热度 演化 趋势 的 分 
析 , 进行 重大 突 发 事件 中 社会 群体 信息 行为 主题 在 整个 与 情事 件 发 展 过 程 中 的 演 
化 特征 分 析 。 


3.3 基于 相似 度 的 社会 群体 信息 行为 与 情 主题 路 径 演化 图 谱 


通过 分 析 社 交 网 络 中 与 情 主题 路 径 演化 , 可 以 及 时 发 现 和 预警 潜在 的 与 情 
件 ， 从 而 更 好 地 应 对 和 处 理 可 能 出 现 的 负面 影响 。 同 时 ,研究 社交 网 络 中 与 情 主 
题 路 径 演 化 ,可 以 帮助 国家 政府 更 好 地 了 解 用 户 的 信息 需求 和 传播 路 径 ， 从 而 优 
化 信息 传播 策略 ， 提 高 信息 传播 效果 。 


社交 网 络 具 有 以 下 特点 : 也 在 社交 网 络 中 , 意见 领袖 节点 往往 代表 其 所 在 社 
会 群体 的 主题 倾向 ; 社交 网 络 中 的 边 权重 可 以 看 作 是 网 络 社 群 在 不 同 节 点 间 传 
播 的 信息 损耗 ， 即 节点 的 主题 相似 度 越 高 ， 它 们 之 间 的 信息 传播 就 更 为 容易 ， 信 
息 损 耗 也 越 小 所 。 因 此 ， 为 降低 后 续 计 算 的 复杂 度 ， 保 障 研 究 的 科学 性 ， 本 文 首 
先 挖 掘 不 同 群 体 意见 领袖 的 代表 其 所 在 的 群体 , 再 计算 出 群体 意见 领袖 之 间 的 相 
似 度 代表 主题 之 间 的 语义 距离 ， 并 将 语义 距离 作为 主题 的 边 权 重 , 最 后 计算 裔 历 
各 舆情 主题 的 最 短路 径 ， 构 建 社 会 群体 信息 行为 舆情 主题 路 径 演 化 图 谱 。 

PageRank 算法 是 由 谷歌 公司 创始 人 拉 里 。 佩 奇 和 谢 尔 盖 。 布 林 于 1996 年 推 
出 的 一 种 网 页 分 析 算 法 “”。 原 本 的 PageRank 算法 模型 主要 用 于 确定 网 页 搜索 排 
名 情况 ,根据 网 页 的 入 度 和 出 度 来 计算 网 页 的 权重 , 权重 越 高 的 网 页 排名 越 靠 前 。 
而 近来 , 大 量 关 于 PageRank 算法 的 研究 都 致力 于 使 用 PageRank 算法 度量 社交 网 
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络 中 意见 领袖 的 影响 力 中 。 由 于 PageRank 算法 不 仅 考 虑 了 节点 的 数量 和 质量 ， 
也 考虑 了 不 同 节点 之 间 的 关联 ， 是 一 种 比较 综合 的 排名 算法 ， 因 此 本 文选 用 
PageRank 值 来 挖掘 重大 突 发 事件 中 不 同 社会 群体 的 意见 领 衣 

KL 散 度 也 称 相 对 焙 ， 是 两 个 概率 分 布 间 差异 的 非 对 称 性 上 度量， 计算 见 公式 
(2) o JS 散 度 是 在 KL 散 度 的 基础 上 演化 而 来 的 ， 是 用 于 描述 两 个 概率 分 布 的 
对 称 性 相似 程度 ”“， 计 算 见 公式 (3) 。 


P(x) 


KL(PIIQ) = > P(x) log ame 


AH (2) 


1 P(x) +Q(x) 1 P(x) +Q(x) 
JS(PIIQ) = 5 KL (PIAS) + 5 KL (QOQI) 公式 (3) 


MAK (3) 可 以 看 出 等 式 是 对 称 成 立 的， 也 就 是 说 JSCPIIQ) =JS(QIIP). 
在 本 文中 ，P(x) 和 Q(x) 表示 不 同意 见 领袖 的 概率 分 布 ， 即 LDA 主题 模型 计算 出 
的 “文档 -主题 ”分 布 ，JS 散 度 的 值 域 范围 是 [0, 1], P(x) 和 Q(x) 的 相似 度 越 高 ， 
JS 散 度 值 越 接 近 于 0””。 因 此 ， 本 文选 择 JS 散 度 来 度量 不 同意 见 领袖 之 间 的 相 
似 度 。 


深度 优先 搜索 OFO 算法 是 一 种 基于 栈 或 递归 实现 的 搜索 算法 ， 其 基本 思 
想 是 从 起 点 出 发 , 依次 访问 相 邻 的 节点 , 直到 找到 目标 节点 或 无 法 继续 访问 为 止 。 
在 访问 一 个 节点 时 , 如 果 该 节点 未 被 访问 过 , 则 标记 为 已 访问 , 并 将 其 加 入 栈 中 ， 
然后 继续 访问 与 该 节点 相 邻 的 节点 。 如 果 所 有 相 邻 的 节点 都 已 被 访问 过 或 者 没有 
相 邻 节点 ， 则 从 栈 中 弹出 上 一 个 节点 ， 回 溯 到 上 一 个 和 节点， 继续 访问 其 它 未 访问 
过 的 相 邻 节点 ”。DFS 算法 可 以 用 来 解决 许多 图 论 问题 ， 如 连通 性 、 最 短路 径 、 
最 小 生成 树 等 问题 ,因此 , 本 文通 过 DFS 算法 来 计算 遍历 各 舆情 主题 的 最 短路 径 。 


3.4 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主题 图 谱 构建 过 程 模型 


基于 上 述 分 析 ， 本 文 构建 了 重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 图 谱 
及 演化 特征 分 析 过 程 模型 ， 如 图 1 所 示 。 过 程 模型 分 为 4 个 阶段 : 数据 处 理 、 
主题 挖掘 、 主 题 图 谱 构 建 和 与 情 主 题 分 析 。 C1) 数据 处 理 。 通 过 软件 和 编码 对 
重大 突 发 事件 下 网 络 与 情事 件数 据 进 行 仆 取 , 疏 取 的 数据 包括 用 户 名 、 用 户 评论 
转发 文本 、 评论 转发 关系 和 发 文 时 间 , 随后 对 怜 取 到 的 数据 进行 预 处 理 , 即 清洗 、 
分 词 、 筛 选 和 去 重 等 操作 ， 获 得 预 处 理 后 的 数据 。〈2) 主题 挖掘 。 通 过 困惑 度 
评价 指标 确定 最 优 主题 个 数 , 再 利用 LDA 主题 模型 对 预 处 理 后 的 数据 进行 主题 控 
掘 ， 随 后 进行 主题 时 序 统计 和 主题 频次 统计 。 通 过 PageRank 值 识 别 不 同 主题 意 
见 领袖 ， 结 合 LDA 主题 模型 得 出 的 “文档 -主题 分 布 ”， 计 算出 不 同 群体 意见 领 
袖 之 间 的 JS 散 度 值 作为 主题 之 间 相 似 度 ， 通 过 DFS 算法 来 计算 遍历 各 与 情 主 题 
的 最 短路 径 。 G) 主题 图 谱 构建 。 通 过 编码 和 可 视 化 软件 构建 社会 群体 信息 行 
为 舆情 主题 聚 类 图 谱 、 主 题 热 度 演化 图 谱 和 主题 路 径 演 化 图 谱 。 (4) 与 情 主 题 
分 析 。 分 别 对 主题 聚 类 图 谱 、 主 题 热度 演化 图 谱 和 主题 路 径 演 化 图 谱 进 行 主 题 特 
征 分 析 、 主 题 热度 分 析 和 主题 最 优 传播 路 径 分 析 。 
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图 1 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主题 图 谱 构 建 过 程 模型 
4 实证 分 析 


4.1 数据 处 理 


据 新 浪 微 博 2022 年 3 月 公布 的 《新 浪 微 博 2021 年 全 年 财报 》 显 示 ， 截 至 
2021 年 末 微 博 月 活跃 用 户 达 到 5.73 亿 ， 同 比 增长 10%”。 微 博 平 台 作 为 目前 国 
内 主流 社交 媒体 平台 之 一 ， 具 有 用 户 门槛 低 、 信 息 时 效 性 强 和 传播 范围 广泛 等 特 
点 。2022 年 3 月 21 日 ， 中 国 东 方 航空 集团 有 限 公 司 MU5735 航班 在 广西 壮族 自 
治 区 梧州 市 附近 山林 坠毁 ， 发 生 重大 空难 事故 。 此 次 重大 突 发 事件 ， 给 国家 和 人 
民 都 带 来 了 难以 估量 的 危害 ,不 仅 造 成 严重 财产 损失 和 人 员 伤 亡 , 也 使 得 我 国民 
航 业 再 次 遭受 重创 。 随 着 “3. 21” 东 航 客 机 事故 的 持续 发 展 ， 其 造成 的 严重 人 员 
伤亡 、 灾 后 救援 和 事故 原因 等 相关 话题 迅速 引起 网 络 社交 平台 中 大 量 官方 媒体 和 
普通 用 户 的 关注 。 


因此 ， 本 文选 择 新 浪 微 博 作 为 研究 平台 ， 选 取 新 浪 微 博 的 “3. 21 ”东航 客 机 
事故 这 一 具有 一 定 代 表 性 重大 突 发 公共 安全 事件 作为 与 情话 题 , 采用 八 爪 鱼 工具 
对 与 情事 件 下 的 数据 进行 仆 取 ， 收 集 的 数据 信息 主要 包括 用 户 名 、 用 户 ID、 发 
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文 时 间 、 评 论 转 发 文本 内 容 等 。 对 收集 的 数据 进行 数据 处 理 。 首先 使 用 Microsoft 
Excel 软件 和 查 并 剔除 掉 无 关 数 据 , 去 除 表 情 及 链接 等 .其 次 ,调用 Python 3. 10. 6 
中 的 jieba 库 对 文本 进行 分 词 操 作 ， 然 后 筛选 出 文本 中 的 名 词 、 动 名 词 、 专 有 名 
词 、 形 容 词 作为 文本 关键 词 ， 再 人 工 删除 无 关 词 、 虚 词 和 停 用 词 ， 如 “公司 ”、 
“代表 ”等 。 再 次 ， 对 同义词 进行 合并 ， 如 将 “家 人 ”、“ 亲 人 ”都 合并 为 “家 
属 ”， 并 创建 常用 词典 合成 常用 词 ， 如 jieba 库 可 能 将 “央视 ”和 “新 闻 ” 分 成 
了 两 个 词 ， 需 要 在 常用 词典 中 将 其 合并 成 “央视 新 闻 ” 这 一 词 。 最 后 ， 得 到 微 博 
评论 转发 数据 共 28326 条 。 


为 更 直观 地 呈现 出 预 处 理 后 的 数据 结果 , 发 现 关 键 词 之 间 的 潜在 关系 和 微 博 
用 户 关 注 的 热点 话题 ， 深 入 了 解 用 户 群 体 对 和 与 情事 件 的 态度 和 情感 ， 本 文 在 
Windows10 系统 下 ， 通 过 Python 3. 10. 6 编码 和 Microsoft Excel 软件 ， 对 数据 
Ath FE Js A RE ta GE AT AE, ie HY tl Dad AY) 200 个 关键 词 , 构建 社会 群体 信息 
行为 与 情 关 键 词 共 现 和 矩阵 ， 通 过 共 现 矩阵 构建 共 现 网 络 。 


Gephi 是 一 款 开 源 的 网 络 分 析 和 可 视 化 工具 ， 它 可 以 通过 导入 节点 及 边 表格 
或 导入 矩阵 帮助 用 户 对 复杂 的 网 络 数据 进行 分 析 和 可 视 化 。 本 文选 择 目 前 的 最 高 
版 本 Gephi 0. 9.7 构建 “3. 21” 东 航 客 机 事故 关键 词 共 现 网 络 并 进行 后 续 分 析 。 
通过 Gephi 可 视 化 软件 对 “3. 21” 东 航 客 机 事故 社会 群体 信息 行为 舆情 关键 词 共 
现 网 络 进行 可 视 化 呈现 ， 如 图 2 所 示 。 以 关键 词 为 共 现 网 络 中 的 节点 ， 节 点 大 
小 代表 关键 词 的 度 中 心性 ， 共 现 关 系 为 网 络 中 的 边 , 边 的 粗细 代表 关键 词 之 间 的 
共 现 次 数 ， 共 获得 200 个 节点 和 5070 条 边 。 


2 “3.21” 东 航 客机 事故 关键 词 共 现 网 络 


社会 群体 信息 行为 舆情 关键 词 共 现 网 络 , 可 以 展示 各 群体 信息 行为 舆情 关键 
词 重要 性 程度 , 也 可 以 展示 各 关键 词 之 间 的 关联 关系 , 还 可 以 根据 边 的 权重 展示 
关键 词 之 间 的 关联 关系 程度 。 根据 以 往 研究 中 对 社会 网 络 的 分 析 方 法 ， 本文 从 网 
络 密度 和 网 络 中 心性 两 个 角度 对 “3. 21” 东 航 客机 事故 关键 词 共 现 网 络 进 行 分 析 。 
一 方面 , 选择 网 络 密度 为 分 析 指 标 , 对 关键 词 共 现 网 络 进行 整体 分 析 ; 男 一 方面 ， 
选择 网 络 中 心性 为 分 析 指 标 ， 对 网 络 结构 中 度 中 心性 为 前 10 的 节点 为 代表 性 节 
点 进行 重点 分 析 ， 此 类 节点 是 影响 舆情 事件 发 展 的 关键 节点 及 关键 要 素 。 


通过 Gephi 测算 “3. 21” 东 航 客 机 事故 关键 词 共 现 网 络 密度 ， 可 知 “3. 21” 
东航 客机 事故 关键 词 共 现 网 络 密度 为 0.255， 几 乎 接近 0。 一 般 来 说 网 络 密度 越 
大 ， 各 节点 的 互动 越 频繁 。 这 意味 着 “3. 21” 东 航 客 机 事故 在 新 浪 微 博 上 传播 时 
社交 媒体 用 户 节点 之 间 交 流 相 对 较 少 , 致使 用 户 在 接收 信息 时 需要 对 舆情 事件 按 
时 间 顺 序 进行 梳理 , 所 以 花费 了 较 多 时 间 来 全 面 掌握 当前 这 一 重大 突 发 安全 事件 
的 发 展 态 势 。 同 时 ， 本 文通 过 Gephi 分 别 测算 “3.21” 东 航 客机 事故 关键 词 共 现 
网 络 中 点 度 中 心性 、 中 介 中 心性 和 接近 中 心性 前 10 的 节点 ， 进 行 网 络 中 心性 指 
标的 详细 分 析 ， 如 表 1 所 示 。 


表 1 “3.21” 东航 客机 事故 关键 词 共 现 网 络 中 心性 指标 详细 信息 


序号 | Label | degree | Label Betweenness Centrality Label Closeness Centrality 
1 事故 184 事故 1201.43 事故 0.930 
2 飞机 172 飞机 990.32 飞机 0.881 
3 家 属 163 家 属 881.77 家 属 0.847 
4 乘客 156 乘客 686.58 乘客 0.822 
5 原因 140 逝 者 522.84 原因 0.771 
6 逝 者 135 es 459.54 逝 者 0.757 
7 空难 134 aw 449.87 空难 0.754 
8 问题 133 原因 445.33 问题 0.751 
9 调查 133 问题 442.92 调查 0.751 
10 言 息 128 空难 424.73 Aw 0.737 
4.2 数据 结果 


研究 结果 表明 , “3.21” 东 航 客 机 事故 与 情事 件 的 关键 词 共 现 网 络 通 过 对 网 
络 密度 及 代表 性 节点 中 心性 的 分 析 , 发 现 重 大 突 发 事件 下 社会 群体 信息 行为 具有 
以 下 几 个 特征 : 


重大 突 发 事件 下 社会 群体 信息 行为 与 情 传播 主体 具有 很 强 的 交互 性 和 关联 
性 .通过 对 关键 词 共 现 网 络 的 分 析 , 发 现 不 同 关 键 词 节点 之 间 边 的 粗细 有 所 不 同 ， 
粗细 程度 代表 关键 词 节点 之 间 的 共 现 次 数 ,， 即 节点 之 间 的 边 越 粗 ， 节 点 之 间 的 共 
现 次 数 越 多 ， 节 点 关系 越 密切 。 例 如 ，“ 事 故 ”“ 原 因 ”“ 调 查 ”“ 调 查 结果 ” 
“信息 ”等 关键 词 节 点 之 间 的 边 较 粗 ， 说 明 这 些 节 点 之 间 的 联系 较为 密切 ， 体 现 
了 重大 突 发 事件 中 社会 群体 十 分 关注 事故 调查 结果 , 淘 求 知晓 事 发 原因 ; 关键 词 
节点 “乘客 ”与 关键 词 节 点 “救援 ”、“ 平 安 ” 之 间 的 边 较 粗 ， 体 现 了 重大 突 发 
事件 中 社会 群体 对 受灾 乘客 的 强烈 忧心 和 有 笑 切 期 盼 。 


重大 突 发 事件 下 社会 群体 信息 行为 与 情 传播 网 络 具 有 一 定 的 稀 松 性 和 异 质 
性 。 从 网 络 密 度 分 析 来 看 ，“3. 21” 东 航 客 机 事故 关键 词 共 现 网 络 的 整体 密度 偏 
低 为 0.255。 由 此 可 见 ，“3.21” 东 航 客机 事故 在 新 浪 微 博 平台 传播 时 ， 各 和 与 情 
传播 社交 网 络 的 用 户 节点 之 间 关 注 的 主题 关键 词 间 互 动 联络 都 极为 稀 松 , 微 博 用 
户 信息 交互 行为 医 乏 、 关 系 不 够 紧密 ， 各 节点 存在 严重 的 异 质 性 ,难以 形成 一 致 
的 表达 ， 也 降低 了 信息 的 传播 速度 。 


重大 突 发 事件 下 社会 群体 信息 行为 与 情 传播 的 关键 节点 具有 一 定 的 集中 性 。 
从 网 络 中 心性 分 析 来 看 ， 在 “3. 21” 东 航 客机 事故 中 ， 点 度 中 心性 前 10 的 关键 
词 为 “事故 ”“ 飞 机 ”“ 家 属 ” “RR” AA “GH” RA LBL” M 
查 ”“ 信 息 ”， 说 明 这 些 关键 词 在 信息 传播 网 络 中 具有 极 高 的 地 位 ， 中 介 中 心性 
前 10 的 关键 词 为 “事故 ”“ 飞 机 ”“ 家 属 ” “乘客 ”“ 逝 者 ”“ 平 安 ”“ 信 息 ” 
“原因 ” “问题 ”“ 空 难 ”， 说 明 这 些 社交 网 络 的 节点 发 表 的 与 情 主题 关键 词 作 
传播 能 力 较 强 ,更 能 引导 与 情 的 传播 ; 接近 中 心性 前 10 的 关键 词 为 “事故 ”“ 飞 
机 ”“ 家 属 ” “乘客 ” SAR? GER” “空难 ” “问题 ”“ 调 查 ” “信息 ”， 
说 明 这 些 社交 网 络 的 用 户 关键 词 到 达 其 他 关键 词 节 点 较为 简单 。 由 此 可 见 ， 关键 
ia] “事故 ”“ 飞 机 ”“ 家 属 ” “乘客”“ 逝 者 ” “空难 ”等 均 靠 前 排列 ， 这 些 关 
键 词 都 是 信息 传播 网 络 中 的 关键 节点 ， 与 其 他 关键 词 节 点 联系 密切 ,是 重大 突 发 
事件 中 与 情 主体 传播 的 核心 关键 词 。 “事故 ”“ 空 难 ”是 此 次 重大 突 发 事件 的 属 
性 ，“ 飞 机 ” “乘客 ”都 是 此 次 事故 发 生 的 主体 ，“ 家 属 ”“ 逝 者 ” 则 是 事故 发 
生 后 社会 群体 的 反应 , 表明 社会 群体 关心 事故 遇难 的 “ 逝 者 ”及 其 “家 属 ”，“3. 21” 
东航 客机 重大 突 发 安全 事故 引发 全 国民 众 的 热切 关注 。 


4.3 基于 LDA 的 主题 聚 类 图 谱 
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3 perplexity-topic 折线 图 


确定 主题 聚 类 个 数 。 经 过 数据 预 处 理 后 ， 本 文选 用 基于 Python-sklearn 中 
的 LDA 主题 模型 ， 对 预 处 理 后 的 文本 进行 分 类 训练 。 主 题 个 数 太 少 可 能 不 足以 捕 
捉 到 数据 的 丰富 语义 结构 ， 导 致 模型 的 表现 较 差 。 通 常 ， 至 少 需要 两 个 主题 才能 
进行 对 比 和 观察 不 同 主题 之 间 的 关系 ”。 而 主题 个 数 太 多 会 导致 模型 过 于 复杂 ， 
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并 且 可 能 出 现 过 拟 合 现象 ”, 选择 一 个 较 小 的 主题 个 数 范围 可 以 帮助 避免 这 种 问 
题 。 因 此 ， 拟 定 选择 区 间 [2, 12] 内 的 某 一 整数 作为 候选 主题 数 。 通 过 调用 LDA 
主题 模型 类 下 的 Perplexity 方法 ， 得 出 不 同 模型 的 困惑 度数 值 ， 如 图 3 所 示 。 
该 图 表明 某 一 文档 对 于 各 个 潜在 主题 的 不 确定 程度 。 困 惑 度 越 低 ,文档 归属 于 某 
一 潜在 主题 的 可 能 性 就 越 高 ， 即 模型 的 聚 类 效果 越 好 。 图 3 的 折线 图 显示 ， 随 
着 主题 数 的 增加 , 总 体 上 困惑 度 呈 现 先 波动 下 降 再 上 升 的 态势 ; 困惑 度 的 局 部 极 
小 值 点 ， 出 现在 主题 数 为 8 的 模型 选择 上 。 因 此 ， 本 文 舆 情话 题 拟 选 取 8 “NEF 
在 主题 数 。 


构建 主题 聚 类 图 谱 。 本文 的 研究 对 象 是 新 冠 肺炎 疫情 舆情 空间 下 的 微 博 用 户 
节点 , 任意 两 个 节点 间 的 转发 评论 关系 ,代表 着 两 个 节点 在 同一 与 情 空间 下 的 话 
题 倾向 性 趋同 。 因此 , 这 种 转发 评论 关系 代表 节点 之 间 的 相似 性 。 本文 以 “3. 21” 
东航 客机 事故 与 情话 题 中 微 博 用 户 为 节点 ， 转 发 评论 为 边 ， 将 最 终 获 得 的 28326 
条 微 博 转发 评论 数据 导入 Gephi 0.9.7 可 视 化 软件 中 ， 构 建 “3. 21” 东 航 客 机 事 
故 微 博 用 户主 题 聚 类 图 谐 ， 如 网 4 所 示 。 


主题 1 


图 4 “3.21” 东 航 客机 事故 微 博 用 户主 题 聚 类 图 谱 


根据 不 同 颜色 ， 将 “3. 21” 东航 客机 事故 话题 下 的 微 博 用 户主 题 聚 类 划分 为 
不 同 网 络 社 群 。 其 中 ， 节 点 大 小 与 节点 的 度 中 心性 成 正比 。 节 点 越 大 ， 其 度 中 心 
性 越 大 , 说 明 该 微 博 用 户 在 重大 突 发 事件 下 社会 群体 中 的 影响 具有 更 高 的 地 位 和 
社 群 影响 力 。 


在 确定 最 优 主题 数 后 , 将 分 词 后 的 文本 数据 用 于 LDA 主题 模型 进行 训练 , 得 
到 “主题 - 词 ”以 及 “文档 -主题 ”两 个 概率 分 布 。 通 过 “主题 - 词 ”分 布 可 确定 
各 个 主题 包含 的 高 频 关键 词 ， 并 以 分 类 的 主题 个 数 确 定 微 博 用 户 群 体 。 利 用 LDA 
主题 模型 训练 得 到 的 8 个 主题 , 且 各 个 主题 均 选取 词 频 最 高 的 前 5 个 词 ， 并 对 主 
题 进 行人 工 归 纳 和 命名 ， 如 表 2 所 示 。 
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表 2 主题 高 频 关 键 词 分 布 


a 谣言 | 真相 | 不 传 证 | 通报 | 官方 
0.095 0.058 0.047 0.035 0.032 
a 平安 | 奇迹 | 保佑 | 祈祷 | 坚强 
0.370 0.186 0.180 0.042 0.020 
oe aeons we | 难过 | 安息 | 痛心 | 揪心 
0.091 0.063 0.035 0.019 0.019 
cas. ame | 调查 结 | we | 信息 | 原因 | RETF 
0.113 0.078 0.069 0.038 0.036 
a 保险 | 事故 ”| 意外 险 | 赔付 ”| 航空 公司 
0.052 0.036 0.031 0.026 0.022 
主题 5， 宽慰 肖 只 者 家 属 概率 | 家属 | 生命 | 好 好 活着 | BR | mi 
0.096 0.053 0.039 0.038 0.025 
nee 问题 | 飞机 | 波音 | 安全 | 乘客 
0.111 0.106 0.028 0.024 0.016 
me aaa 希望 | ee | 信息 | 找到 | 救援 
0.216 0.071 0.070 0.045 0.044 


通过 表 2 可 以 看 出 ， 各 个 主题 的 关键 词 都 占有 较 大 的 概率 值 ， 这 符合 微 博 
文本 主题 的 特点 , 即 微 博 用 户 在 某 一 特定 话题 空间 下 的 评论 用 词 习 惯 趋 于 相同 ” 。 
同时 , 除了 极 少数 不 同 主题 高 频 关 键 词 相同 ,各 个 主题 的 高 频 关 键 词 大 体 上 各 不 
相同 , 也 说 明了 该 模型 能 够 较 好 地 实现 微 博 用 户 评论 转发 文本 主题 的 划分 。 通 过 
“主题 概率 分 布 ” 得 出 用 户 转发 评论 文本 信息 的 主题 划分 ， 从 而 确定 微 博 用 户 群 
体 ， 并 统计 “3.21” 东 航 客机 事故 微 博 用 户 群 体 主题 概率 分 布 ， 如 图 5 所 示 。 
从 图 5 中 可 以 看 出 ， 主 题 出 现 频率 从 高 到 低 依次 为 主题 1|、 主 题 0、 主 题 7、 主 
题 6、 主 题 4、 主 题 3、 主 题 2 和 主题 5。 其 中 ， 主 题 1 占 比 最 高 达到 24. 16%; 


主题 5 的 占 比 最 少 ， 占 比 8. 41% 左 右 。 
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4.4 基于 时 序 性 的 主题 热度 演化 图 谱 


基于 LDA 主题 模型 对 重大 突 发 事件 中 社会 群体 信息 行为 进行 主题 划分 后 , 本 
文 基于 主题 热度 和 时 序 性 ， 对 不 同 主题 和 不 同时 间 切 片 内 出 现 的 频次 进行 求 和 ， 
来 反映 不 同 与 情 传播 主题 在 不 同时 段 内 的 讨论 热度 , 以 此 构建 重大 突 发 事件 下 的 
社 群 主题 热度 演化 图 谱 。 考虑 到 舆情 事件 的 生命 周期 ， 事件 爆 发 较 长 时 间 之 后 产 
生 的 数据 量 一 般 较 少 ， 研 究 价值 不 大 ， 故 本 研究 仅 以 “3. 21” 东 航 客 机 事故 发 生 
后 一 个 月 左右 作为 分 析 时 间 , 截取 2022 年 3 月 21 日 到 2022 年 4 月 23 日 期 间 的 
微 博 用 户 评论 转发 文本 作为 研究 数据 。 本 文选 择 主题 河流 图 来 展示 不 同时 间 不 同 
主题 的 演化 情况 ， 通 过 调用 Python-pyecharts 工具 包 构 建 主题 热度 演化 图 谱 ， 
其 中 发 文 时 间 为 横 轴 , 舆情 关注 的 主题 热度 为 纵 轴 , 不 同 颜色 代表 不 同 发 文 主题 ， 
不 同 主题 河流 的 宽度 代表 对 应 时 间 点 的 主题 热度 , 即 主题 河流 所 占 纵 轴 比例 越 大 
其 讨论 热度 越 高 。 据 此 构建 了 “3. 21” 东 航 客机 事故 主题 热度 演化 图 谱 ， 见 图 6。 
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图 6 “3.21” 东 航 客机 事故 主题 热度 演化 图 谱 
4.5 基于 相似 度 的 主题 路 径 演化 图 谱 


识别 不 同 主题 群体 的 意见 领袖 , 代表 其 所 在 主题 的 社交 网 络 群 体 。 PageRank 
算法 基于 网 络 图 模型 , 通过 综合 每 个 节点 的 点 度 中 心性 和 网 络 传播 特性 来 确定 该 
节点 的 重要 程度 ， 即 节点 的 PageRank 值 越 高 ， 表 示 该 社交 网 络 的 节点 对 社 群 的 
影响 力 越 大 。 本 文 在 对 主题 进行 划分 之 后 ， 控 掘 各 主题 群体 中 PageRank 值 最 大 
的 节点 作为 其 所 在 主题 群体 的 意见 领袖 ， 见 表 3。 


表 3 主题 群体 意见 领袖 


主题 意见 领袖 PageRank 值 
0 续 命 晴空 327 0.00878 
1 嘉 人 在 此 一 方 0.00526 
2 三 明 消 防 0.00384 
3 人 民 日 报 0.06784 
4 时 空 急 转 湾 0.00415 
5 酥 糖 e 0.00325 
6 fi 0.00239 
7 叶 落 的 晴天 0.00527 
在 识别 出 各 主题 群体 的 意见 领袖 之 后 ， 结 合 


题 分 布 ”， 计 算出 不 同 群体 意见 领袖 


LDA 主题 模型 得 出 的 “文档 - 主 


表 不 同 主题 之 间 的 边 权 重 ， 见 表 4。 
表 4 主题 群体 意见 领袖 相似 度 


之 间 的 JS 散 度 值 作为 主题 之 间 相 似 度 ， 代 


主题 0 ] 2 3 4 5 6 7 
0 0 0.2587 0.4007 0.1360 0.1548 0.3417 0.0988 0.1091 
] 0.2587 0 0.2574 0.3334 0.2702 0.3370 0.2394 0.2326 
2 0.4007 0.2574 0 0.3556 0.3797 0.1564 0.2935 0.2255 
3 0.1360 0.3334 0.3556 0 0.2342 0.3598 0.1725 0.2047 
4 0.1548 0.2702 0.3797 0.2342 0 0.3930 0.1683 0.1459 
5 0.3417 0.3370 0.1564 0.3598 0.3930 0 0.2713 0.1652 
6 0.0988 0.2394 0.2935 0.1725 0.1683 0.2713 0 0.0405 
7 0.1091 0.2326 0.2255 0.2047 0.1459 0.1652 0.0405 0 


根据 不 同 主题 群体 意见 领 4 


的 相似 度 , H 


外 定 不 同 主题 意见 领 


由 之 间 主 题 演化 


路 径 上 的 边 权 重 ， 以 最 大 主题 群体 1 作为 主题 路 径 演 化 的 起 点 ， 最 小 主题 群体 5 
为 主题 路 径 演 化 的 终点 , 通过 DPS 算法 计算 遍历 各 与 情 主题 的 最 短路 径 , 得 到 主 


题 演化 路 径 为 “主题 1-> 主 题 40 ER 0-> 主 题 3-> 主 


题 6-> 主 题 7-> 主 题 2-> 主 


题 5”。 据 此 构建 重大 突 发 事件 下 社会 群体 信息 行为 舆情 主题 路 径 的 演化 图 谱 ， 
见 图 7。 由 图 7 可 知 ， 在 选择 主题 群体 1 进行 舆情 信息 的 传播 时 ， 从 最 大 主题 


HA 


群体 1 出 发 , 最 后 到 达 最 小 主题 群体 5 的 主题 传播 路 径 , PERAE AER o 


通过 下 


真 , 同时 可 以 更 加 精确 
音 息 ， 避 免 其 不 断 发 
演化 图 谱 ,， 可 以 减少 与 情 在 传播 过 程 中 的 信息 损耗 , 提高 与 情 


性 。 


酵 。 因 此 ， 


定 不 同 主题 与 情 传播 的 最 短路 径 , 可 以 有 效 减少 与 情 传播 过 程 中 的 信息 失 
也 掌握 与 情 信息 的 传播 情况 ， 及 时 发 现 和 纠正 谣言 等 负面 


识别 与 情 主 题 意见 领袖 ， 构 建 与 情事 件 主题 路 径 


管理 的 效率 和 准确 
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图 7 “3.21” 东 航 客机 事故 主题 路 径 演化 图 谱 


5 讨论 分 析 
5.1 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主 题 特征 分 析 


根据 用 户 群 体 LDA 主题 察 类 图 谱 、 主 题 高 频 关键 词 分 布 和 主题 概率 分 布 , 发 
现 “3. 21” 东 航 客 机 事故 网 络 与 情 发 展 周期 内 出 现 的 社会 群体 主题 。 按 照 主 题 频 
率 由 高 到 低 进行 分 析 ， 可 以 发 现 : 主题 1 的 用 户 群 体 仍然 抱 有 一 丝 希 望 ， 希 望 乘 
客 能 够 生还 。 他 们 祈求 奇迹 出 现 ， 并 期 待 调查 结果 能 够 给 出 好 消息 。 主 题 7 的 用 
户 群 体 在 事故 发 生 后 第 一 时 间 内 , 就 呼吁 政府 部 门 加 紧 救 援 , 希望 专家 能 够 尽快 
确定 飞机 失事 所 在 区 域 。 他 们 对 乘客 的 安全 非常 关注 , 希望 救援 行动 能 够 尽快 展 
Fo 主题 2 的 用 户 群 体感 到 十 分 痛心 , 对 失事 的 航班 表示 户 悼 , IPT ae E 
生 者 坚强 。 他 们 希望 这 样 的 事故 不 再 发 生 ， 同 时 也 要 关注 乘客 家 属 的 情况 ， 尺 力 
安抚 他 们 的 情绪 。 主题 5 的 用 户 群 体 关 注 失事 飞机 乘客 的 家 属 情况 , 希望 他 们 能 
BERE, 珍惜 生命 , 保重 身体 健康 。 主 题 6 的 用 户 群 体 对 波音 系列 客机 的 安 
全 性 持 怀 疑 态度 ， 认 为 乘客 的 人 身 安 全 未 必 能 够 得 到 保障 。 他 们 希望 相关 部 门 能 
够 对 波音 系列 客机 进行 更 加 严格 的 检查 , 保障 乘客 的 人 身 安全 。 主题 3 的 用 户 群 
体 主要 关注 此 次 事故 的 调查 结果 , 探寻 酿 成 翡 剧 的 主要 原因 。 他们 希望 相关 部 门 
能 够 尽快 公布 调查 结果 , 为 事故 的 原因 找到 合理 的 解释 。 主题 4 的 用 户 群体 主要 
关注 事故 后 意外 保险 等 相关 问题 ， 以 及 航空 公司 的 赔付 情况 。 他 们 认为 , 保险 公 
司 和 航空 公司 应 该 承担 相应 责任 ， 为 乘客 及 其 家 属 提供 必要 的 帮助 和 赔偿 。 主 题 
0 的 用 户 群 体面 对 繁杂 的 信息 ， 保 持 理智 ， 甄 别 网 络 谣言 。 他 们 耐心 等 待 官 方 发 
布 的 调查 结果 ， 以 便 了 解 事故 的 真相 和 原因 。 


本 文 所 构建 的 重大 突 发 事件 社会 群体 信息 行为 舆情 主题 特征 分 析 , 不 仅 能 够 
直观 呈现 重大 突 发 事件 下 用 户 之 间 关 注 的 主题 交互 状况 , 同时 通过 LDA 方法 可 以 
有 效 划 分 与 情 主 题 并 确保 重大 突 发 事件 中 舆情 主题 特征 分 析 的 有 效 性 。 以往 研究 
中 大 多 通过 知识 图 谱 ” 进行 网 络 与 情 的 分 析 , 也 有 一 些 学 者 通过 事理 图 谱 ”对 网 
络 与 情 进行 研究 。 本 文通 过 LDA 主题 聚 类 图 谱 的 构建 ,发 掘 重 大 突 发 事件 中 社会 


ie 


群体 信息 行为 的 与 情 主 题 特征 ,一 方面 ,可 以 通过 对 重大 突 发 事件 下 与 情 主 题 特 
征 的 分 析 , 帮助 与 情 监管 部 门 准确 有 效 地 识别 微 博 用 户 群 体 话题 ,以 更 快 地 了 解 
重大 突 发 事件 下 社会 群体 关注 的 重要 主题 方向 和 与 情 争 议 的 焦点 , 获取 公众 声音 
和 意见 ， 以 更 好 地 进行 与 情 引 导 和 情感 琉 导 。 男 一 方面 ， 可 以 实时 监测 和 预警 重 
大 突 发 事件 的 与 情 动 态 ,通过 对 与 情 数据 的 分 析 和 可 视 化 ,及 时 捕捉 和 分 析 与 情 
走向 和 进行 与 情 风险 预警 ”, 并 结合 不 同 主题 的 网 络 群 体 特征 做 到 有 针对 性 的 与 
情 监管 和 引导 ， 从 而 更 好 地 实现 对 重大 突 发 事件 下 舆情 的 引导 和 社会 的 稳定 。 


5.2 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主 题 热 度 影 响 因素 


根据 “3. 21” 东 航 客 机 事故 主题 热度 演化 图 谱 ， 该 事故 从 2022 年 3 月 21 
日 东航 航班 机 在 广西 梧州 山林 坠毁 开始 ， 是 整个 话题 空间 的 入 口 。2022 年 3 月 
21 日 到 2022 年 4 月 23 日 期 间 8 个 主题 均 出 现 了 5 个 峰值 ， 分 别 为 2022 年 3 月 
25 日 、2022 年 3 月 27 日 、2022 年 3 月 30 日 、2022 年 4 月 11 日 和 2022 年 4 
月 20 日 。 从 单个 峰值 来 看 ， 乘 客 “ 救 援 主 题 ” 分 别 占 据 了 2022 年 3 月 25 日 和 
2022 年 3 月 27 日 这 两 个 峰值 的 最 大 讨论 热度 , “意外 险 赔 付 主题 ”占据 了 2022 
年 3 月 30 日 这 一 峰值 的 最 大 讨论 热度 ， “网络 谣言 识别 主题 ”占据 了 2022 年 4 
月 11 日 这 一 峰值 的 最 大 讨论 热度 ， 探 究 事故 致 因 主题 占据 了 2022 年 4 月 20 日 
这 一 峰值 的 最 大 讨论 热度 。 通过 相关 事件 梳理 , 发 现 以 下 事件 是 导致 这 5 个 峰值 
产生 的 原因 : 2022 年 3 月 25 日 东航 客机 坠毁 事故 救援 进入 第 5 天， 在 25 日 召 
开 的 “3。21” 东 航 MU5735 航空 器 飞行 事故 国家 应 急 处 置 指挥 部 第 五 场 新 闻 发 布 
会 上 ,公众 关心 的 诸多 焦点 问题 得 到 回应 ,诸如 黑匣子 破译 和 遇难 者 身份 鉴定 进 
fe; 2022 £3 27H, “3°21” ARM MU5735 航空 器 飞行 事故 遇难 者 集体 嘉 悼 
活动 在 事 发 地 搜救 现场 举行 ， 对 遇难 者 表示 哀悼 ， 2022 年 3 月 30 日 ， 据 中 国 银 
保监会 消息 称 “ 东 航 遇 难 者 家 属 已 获 11 家 保险 公司 赔付 1485 万 元 ”; 2022 年 4 
月 11 日 ,官方 尽 谣 东航 飞机 失事 与 副 中 有 关 ， 并 表示 MU5735 事故 原因 还 在 调查 
中 ; 2022 年 4 月 20 日， 官方 公布 针对 东航 MU5735 航班 失事 的 初步 报告 。 


通过 分 析 “3. 21” 东 航 客 机 事故 主题 热度 的 演化 ， 本 文 进一步 验证 了 影响 网 
络 与 情 主 题 讨 论 热 度 的 演化 因素 。 以往 研 究 对 网 络 和 与 情 主题 热度 影响 因素 的 研究 ， 
多 集中 于 认为 标志 性 事件 的 出 现 是 影响 网 络 熏 情 主题 热度 演化 的 主要 因素 之 一 
OS, 与 情 事件 本 身 的 特性 也 对 网 络 与 情 主题 热度 产生 较 大 影响 ”。 本 文 在 前 序 研 
究 的 基础 上 , 进一步 验证 了 官方 相关 信息 公开 时 间 和 信息 公开 的 范围 、 数量 对 网 
络 与 情 主 体 热度 具有 一 定 的 影响 。 为 加 强 真实 信息 的 传播 效率 ,官方 机 构 应 尽早 
进入 网 络 信息 公开 系统 ， 并 向 公众 公开 相关 信息 ， 安 抚 公众 情绪 。 在 此 基础 上 ， 
相关 组 织 也 需要 建立 谣言 监测 和 预警 机 制 。 通 过 关注 信息 公开 的 范围 及 数量 ， 确 
定 官方 信息 渠道 ， 如 政府 部 门 或 权威 机 构 发 布 及 时 通告 和 举行 新 闻 发 布 会 , 确保 
重大 突 发 事件 信息 传播 的 准确 性 和 可 信 度 。 另 一 方面 ,确定 影响 力 较 高 的 谣言 传 
播 者 并 对 其 进行 引导 和 管制 , 改变 信息 的 流向 和 流速 , 有 效 避 免 负面 信息 的 发 酵 ， 
从 而 控制 重大 突 发 事件 下 社交 媒体 的 网 络 谣言 的 传播 速度 和 负面 导论 倾向 。 
5.3 重大 突 发 事件 中 社会 群体 信息 行为 与 情 主题 最 优 传播 路 径 分 析 

本 文 根 据 数据 分 析 结 果 与 主题 路 径 演化 分 析 发 现 ， 在 话题 “3. 21 东航 客机 
事故 ”中 ,意见 领袖 “喜人 在 此 一 方 ”一 “ 酥 糖 e” 一 “喜人 在 此 一 方 ” 一 “时 
空 急 转 湾 ” 一 “ 续 命 晴 空 327” 一 “人 民 日 报 ” 一 “ 鲸 锂 ”一 “ 叶 落 的 晴天 ” 
一 “三 明 消 防 ” 一 “ 酥 糖 e” 的 与 情 传播 路 径 最 短 ， 即 与 情 主 题 1 到 主题 5 的 最 


优 传播 路 径 为 主题 1-> 主 题 4> 主 题 0-> 主 题 3-> 主 题 6-> 主 题 7-> 主 题 2-> 主 题 5。 
与 情 主题 通过 该 路 径 传播 时 造成 的 信息 损耗 最 小 、 信 息 传 播 效率 最 高 。 在 “3. 21 
东航 客机 事故 ”的 重大 突 发 事件 的 与 情话 题 中 , 可 以 通过 确定 不 同 主题 群体 间 的 
最 优 演化 路 径 ， 同 时 利用 社交 网 络 的 连通 性 ,进行 更 精准 高 效 的 主题 群体 意见 领 
话题 的 推送 ， 从 而 实现 科学 与 情 监 测 和 与 论 引 导 。 


重大 突 发 事件 与 情 传 播 过 程 中 , 对 于 意见 领袖 的 引导 和 管理 发 挥 着 至 关 重 要 
的 作用 ， 他 们 的 言论 往往 会 引导 与 情 的 走向 。 目 前 ， 多 项 研究 考虑 到 意见 领袖 对 
于 网 络 与 情 管控 的 影响 ”, 并 有 学 者 讨论 意见 领袖 是 信息 传播 效率 内 在 驱动 之 一 
”。 为 了 提高 舆情 管控 的 效果 ， 需 要 采取 “引导 ”与 “控制 ” 相 结合 的 方式 ， 让 
意见 领袖 发 挥 更 大 的 作用 。 意 见 领 袖 的 权威 性 和 可 信和 度 是 影响 普通 用 户 转 发 行为 
的 关键 因素 ”, 官方 机 构 可 以 选取 影响 力 及 权威 度 较 高 的 意见 领袖 进行 信息 公开 ， 
以 提升 单个 节点 信息 传播 效率 。 此 外 ， 考 虑 到 推送 话题 时 ,对 所 有 用 户 进行 无 差 
别 的 推送 容易 造成 推送 阻塞 或 推送 风暴 ,降低 用 户 对 推送 内 容 的 信任 度 ， 本文 提 
出 在 与 情 监 管 中 , 通过 确定 不 同 群体 间 主 题 传 播 的 最 优 路 径 , 利用 社交 网 络 的 连 
通 性 ,实现 群体 意见 领袖 的 高 效 话题 推送 ， 以 降低 信息 传播 过 程 中 的 失真 ， 更 好 
地 引导 重大 突 发 事件 中 网 络 与 情 的 走向 。 因此 , 构建 重大 突 发 事件 中 社会 群体 信 
乱 行 为 与 情 主 题 路 径 演 化 图 谱 , 识别 与 情 主 题 意见 领袖 , 确定 主题 传播 的 最 优 路 
径 ， 可 以 有 效 减少 舆情 传播 过 程 中 的 信息 损耗 和 失真 ， 提 高 与 情 管控 的 效率 和 准 
确 性 。 


一 


6 研究 结论 


本 文 在 理论 层面 上 , 构建 重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 分 析 过 
程 模型 ， 明 确 基 于 LDA 的 主题 聚 类 图 谱 、 基 于 时 序 性 的 主题 热度 演化 图 谱 和 基于 
相似 度 的 主题 路 径 演化 图 谱 的 构建 方法 。 研 究 结果 表明 , 利用 本 文 构建 的 主题 聚 
类 图 谱 、 主 题 热度 演化 图 谱 和 主题 路 径 演化 图 谱 ， 可 以 发 现 重大 突 发 事件 中 社会 
群体 信息 行为 的 与 情 主 题 特征 、 和 与 情 主 题 热 度 影响 因素 以 及 与 情 主 题 最 优 传播 路 
径 。 本文 的 研究 , 为 重大 突 发 事件 中 社会 群体 信息 行为 舆情 分 析 提 供 了 新 的 理论 
框架 和 分 析 方 法 。 


在 实践 层面 上 ， 以 “3. 21” 东 航 客机 事故 舆情 话题 为 例 ， 通 过 重大 突 发 事件 
中 社会 群体 信息 行为 主题 特征 分 析 , 帮助 舆情 监管 部 门 准确 有 效 地 识别 微 博 用 户 
群体 敏感 与 情话 题 和 敏感 群体 , 从 而 有 效 确定 在 重大 突 发 事件 舆情 传播 中 的 重点 
与 情 监管 节点 ; 通过 对 重大 突 发 事件 中 社会 群体 信息 行为 舆情 主题 热度 影响 因素 
分 析 ， 可 以 识别 敏感 舆情 主题 信息 的 流向 和 流速 ， 有 效 避 免 负面 舆情 的 发 酵 ， 从 
而 控制 社交 网 络 中 与 情 的 信息 传播 速度 、 传 播 量 和 与 论 倾向 ; 通过 对 重大 突 发 事 
件 中 社会 群体 信息 行为 默 情 主 题 最 优 传播 路 径 的 分 析 , 可 以 有 效 减少 与 情 传 播 过 
程 中 的 信息 传播 失真 ,避免 错误 信息 和 网 络 谣言 的 传播 , 通过 算法 的 优化 推荐 提 
高 与 情 管理 的 效率 和 与 情 的 有 效 引 导 。 本文 在 实践 层面 可 为 与 情 监管 部 门 提供 更 
好 的 社会 群体 与 情 主 题 监 管 方法 , 可 更 好 地 推动 重大 突 发 事件 下 负面 网 络 与 情 的 
玻 导 ， 营 造 更 好 的 网 络 生态 环境 。 

本 文 在 研究 中 存在 一 定 的 局 限 性。 选取 的 微 博 平台 虽然 具有 一 定 的 代表 性 ， 
但 是 不 能 涵盖 其 他 与 情 平 台 “3. 21 ”东航 客机 事故 话题 内 容 。 同 时 , 仅 结合 “3. 21” 
东航 客机 事故 这 一 话题 进行 分 析 研 究 。 后续 将 进一步 补充 更 多 代表 性 的 与 情 平台 ， 
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谱 及 演化 进行 研究 。 
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Abstract: [Purpose/Significance] The study aims to explore the construction of a social group 
information behavior and public opinion topic graph during significant emergencies. This research 
helps to better understand the evolution of public opinion during such events and identify sensitive 
public opinion topics. By doing so, it enables positive public opinion guidance, which plays a 
crucial role in emergency response and maintaining social stability. |[Method/Process] This 
paper utilizes Latent Dirichlet Allocation (LDA) to construct a graph for the clustering and 
evolution of public opinion topics related to social group information behavior. Additionally, it 
builds a graph depicting the evolution of public opinion topic popularity based on temporal 
characteristics. Lastly, it constructs a graph illustrating the evolution of public opinion topic paths 
based on similarity. Furthermore, a process model for constructing the social group information 
behavior and public opinion topic graph during significant emergencies is presented. 
[Result/Conclusion] The research results indicate that the proposed analysis model for public 
opinion topics during significant emergencies effectively analyzes the characteristics of public 
opinion topics related to social group information behavior on social media. It also identifies 
factors influencing the popularity of these topics and identifies optimal paths for topic diffusion. 
This study provides a new theoretical framework and analysis methods for analyzing social group 
information behavior and public opinion during significant emergencies. It also offers valuable 
insights for guiding online public opinion and public opinion governance during such events. 

Keywords: Significant emergencies; social media sentiment; topic evolution; group information 

behavior 


